正态分布 - 快速入门
作者:Ruben Geert van den Berg,归属于 Statistics A-Z
- 正态分布 - 一般公式
- 标准正态分布
- 正态分布 - 基本属性
- 从正态分布中查找概率
- 从逆正态分布中查找临界值
- 我的变量是否服从正态分布?
定义
正态分布是由以下公式定义的概率密度函数:
\[f(x) = \frac{1}{\sigma\sqrt{2\pi}}\cdot e^{\dfrac{(x - \mu)^2}{-2\sigma^2}}\]
这会产生一个对称的曲线,如下图所示。
该曲线下的面积为我们提供了_任何_值区间的百分比或概率。假设这些智商分数呈正态分布,人口平均值为100,标准差为15分:
- 34.1%的人得分在85到100分之间;
- 15.9%的人得分在115分或以上;
- 一个随机的人有50%(或0.50)的概率得分在100分或以下。
在统计学中,正态分布起着两个重要的作用:
正态分布 - 一般公式
正态分布的一般公式是:
\[f(x) = \frac{1}{\sigma\sqrt{2\pi}}\cdot e^{\dfrac{(x - \mu)^2}{-2\sigma^2}}\]
其中:
- \(\)(“sigma”)是总体标准差;
- \(\)(“mu”)是总体平均值;
- \(x\) 是一个值或检验统计量;
- \(e\) 是一个数学常数,约为 2.72;
- \(\) (“pi”) 是一个数学常数,约为 3.14。
“正态曲线”是通过绘制许多 \(x\) 值的 \(f(x)\) - 概率密度 - 得到的。其水平位置由 \(\) 设定,其宽度和高度由 \(\) 设定。下图给出了一些示例。
与所有概率密度函数一样,该公式_不_返回概率。 为了找到这些概率,我们需要找到 \(x\) 值范围的面积,如下所示。
那么如何找到_任何_值范围的概率? 好吧,您可以从正态分布公式的积分手动计算它。 但是,一个更简单的选择是在 Google Sheets 中查找它,我们将在稍后展示。
标准正态分布
标准正态分布是均值 μ = 0 且标准差 σ = 1 的正态分布。将这些数字填入一般公式会将其简化为
\[f(x) = \frac{1}{\sqrt{2\pi}}\cdot e^{\dfrac{x^2}{-2}}\]
标准正态分布是我们_真正_需要的唯一正态分布。为什么? 好吧,我们可以使用正态分布来查找 \(x\) 的概率,如果
- \(x\) 呈正态分布,并且
- 我们知道它的总体平均值 μ,并且
- 我们知道它的总体标准差 σ。
有了这3个数字,我们还可以计算出一个 z-score:
\[z = \frac{x - \mu}{\sigma}\]
这样做所得到的结果是 \(z\) 被赋予一个 μ = 0 且 σ = 1 的标准。 因此,如果 \(x\) 服从正态分布,则 \(z\) 服从_标准_正态分布。
将 \(x\) 转换为 \(z\) 似乎是理论上的。 但是,如果我们运行 t 检验 或 z 检验,这正是发生的情况。 请记住,计算 \(z\) 或标准化值不会以任何方式“规范化”它们。 也就是说,仅当 \(x\) 呈正态分布时, \(z\) 才服从标准正态分布。
正态分布 - 基本属性
在我们查找 Google Sheets 中的一些概率之前,我们应该了解以下几点:
- 正态分布始终从 \(-\) 到 \(\) 延伸;
- 正态分布的总面积(=概率)始终正好为 1;
- 正态分布完全围绕其平均值 \(\) 对称,因此具有零偏度 (skewness);
- 由于其对称性,对于正态分布,中位数 (median)始终等于平均值;
- 正态分布始终具有零峰度 (kurtosis)。
从正态分布中查找概率
此 Google Sheet(只读)显示了如何从正态分布中查找概率。
只需在某个单元格中键入 =norm.dist(a,b,c,true)
并
- 将
a
替换为某个 x 或 z 值; - 将
b
替换为总体平均值 μ; - 将
c
替换为总体标准差 σ。
这将产生一个左尾概率。 像这样,突出显示的示例告诉我们,如果 z 呈正态分布且 μ = 0 且 σ = 1,则 z < -1 的概率为 0.159 - 大约 16%。
因为表面积 - 或总概率 - 始终为 1,所以我们可以使用以下公式找到任何右尾概率:
\(p(X x) = 1 - p(X x)\)
像这样,z > -1 的概率为 (1 - 0.159 =) 0.841。
那么 x 介于 -2 和 -1 之间的概率是多少? 或者 - 正式地 - p(-2 < X < -1)? 好吧,
\(p(x_a X x_b) = p(X x_b) - p(X x_a)\)
因此,这将是 (0.159 - 0.023 =) 0.136 或 13.6%,如下所示。
如果您不确定是否掌握了这一点,请尝试在空白 Google Sheet 中为自己计算上面显示的每个百分比。
从逆正态分布中查找临界值
- 正态分布告诉我们值范围的概率。 这是检验零假设所必需的。
- 逆正态分布告诉我们概率的值范围。 这是计算置信区间 (confidence intervals)所必需的。
此 Google Sheet(只读)说明了如何找到正态分布变量的临界值。
只需在某个单元格中键入 =norminv(a,b,c)
并
- 将
a
替换为左尾概率; - 将
b
替换为总体平均值 μ(通常为 0); - 将
c
替换为总体标准差 σ(通常为 1);
请记住,不包括某个参数的概率在两个尾部分布均匀。 对于 95% 的置信区间,它为 0.05。 这个 0.05 分为 0.025 的左尾和 0.025 的右尾。
对于标准正态分布,这导致 -1.96 < Z < 1.96。 下图说明了这是如何工作的。
此处显示的确切临界值都在此 Google Sheet(只读)中计算。
我的变量是否服从正态分布?
许多统计程序,例如 ANOVA,t 检验, 回归 (regression) 等,都需要正态性假设 (normality assumption):变量在总体中必须呈正态分布。 只有对于小样本量(例如,N < 25 左右)才需要此假设。 对于较大的样本,中心极限定理 (central limit theorem) 使大多数检验对违反正态性具有稳健性 - 但让我们改天再讨论这个问题。
无论如何。 如果一个变量在某个总体中呈正态分布,那么它也应该在某个样本中大致呈正态分布。 第一个检查 - 简单而可靠 - 是从直方图检查其频率分布。
在 SPSS 中,我们可以非常轻松地将正态曲线添加到直方图中。 此正态曲线被赋予与观察到的分数相同的平均值和标准差。 它快速显示观察到的分布与正态分布的偏差(多少)。
第二个检查是检查描述性统计,特别是偏度和峰度。 一些正态分布的基本属性是
- 其偏度 (skewness)正好为 0,并且
- 其峰度 (kurtosis)也正好为 0。
如果在某个总体中这是真的,那么观察到的变量可能不应具有大的(绝对)偏度或峰度。 下面的示例表突出显示了与此的一些显着偏差。 它们表明反应时间 2、3 和 5 可能_不_在某个总体中呈正态分布。
最后,有 2 个正态性检验 (normality tests):用于评估总体正态性的统计检验。 这些是
这两个测试的目的完全相同:它们测试变量在某个总体中呈正态分布的零假设。
可悲的是,这两个测试在小样本量中都具有低功效 (power) - 恰恰是在真正需要正态性时。 这意味着即使正态性不成立,它们也可能不会拒绝正态性。 像这样,它们可能会产生一种虚假的安全感,因此我们不建议使用它们。
感谢阅读!